国信证券:文生视频大模型Sora发布,训练算力需求大幅提升
资讯
2024-02-20
281
摘要:
2024年2月16日,OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频,在多镜头一致性等维度表现出色。
国信计算机认为,1)OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频,其在视频长度、多角度视频一致性、物理世界理解等领域具有优势;
2)Sora技术原理:通过已知Patches推测下一Patches,将Transformer和Diffusion相结合;
3)多模态大模型拉动训练算力需求提升。
4)投资建议:多模态大模型拉动全球算力需求快速增长,关注国产AI算力侧机会,建议关注国产AI算力龙头公司海光信息
原文:
OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频。
2024年2月16日,OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频,其具有60秒超长长度、多角度视频一致性、对物理世界理解等特性。
Sora可生成60秒超长视频。相较于Runway MLGen-2、Pika等文生视频大模型,Sora可以生成60秒一镜到底的视频,视频逻辑顺畅、主人物及背景的行人均非常稳定,文生视频大模型能力进一步提升。
Sore多角度视频一致性。Sore可以在单个生成视频中创建多个镜头,以准确保留角色和视觉风格。根据OpenAI官网发布的Demo,59秒的视频中,有多角度镜头,且主人物保持了完美的一致性。
Sore在尝试理解物理世界。根据OpenAI官网披露,Sore不仅可以理解用户Prompt的要求,同时亦尝试理解Prompt中的事物在物理世界中的存在方式(即物理规律)。根据OpenAI官网Demo视频中,汽车在山路行驶中的颠簸,以及猫踩奶等动作符合物理世界规律,视频逼真度进一步提升。
Sora技术原理:Transformer+Diffusion
通过已知Patches推测下一Patches。传统大语言模型通过已知Tokens推测下一Tokens,Sora同大语言模型类似,将视频数据切分成不同Patches(即大语言模型中的Tokens),通过已知Patches推测下一Patches。通常可以分为以下两个步骤:1)将高纬度视频数据压缩成低纬度隐空间(Latent Space):OpenAI通过训练视频压缩网络实现该步骤,通常将视频数据作为输入(input),后对视频数据进行时间和空间维度的压缩,并输出(output)潜在表示(latent representation)。2)进一步将数据转化为Spacetime Patches:提取一系列的latent Space作为训练/推理的Tokens,完成对模型的训练。
通过Diffusion还原画面。如前文所述,通过已知Patches推测下一Patches,得到的是Latent Patches,OpenAI通过训练Decoder将得到的latentSpace映射到像素空间,再通过Diffusion模型进一步还原画面。
多模态大模型拉动训练算力需求提升
OpenAI没有公布Sora视频数据切割的细节,我们以ZeLiu等著《Video Swin Transformer(2021)》为例,输入一个尺寸为T×H×W×3的视频(此处T选取32,代表从视频中采样得到32帧,采样方法可自行选择,通常为等间隔采样,视频长度通常约10s;每帧包含H×W×3个像素),通过3DPatchPartition可以得到(T/2)*(H/4)*(W/4)个3DPatch(尺寸为2*4*4*3),即为Tokens,之后再经过Video Swin Transformer和PatchMerging获得多帧数据的高维特征,完成视频数据训练。根据《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning(Pablo等著,2022年)》披露数据,Youtube每分钟大约上传500小时视频,则我们可以得到Youtube一年增量视频数据为500×3600×24×365=157.68亿秒。通常分类任务视频为10s左右,对应采样帧数为32,假设每帧图片分辨率为1024×768,则10s视频对应的Token数量为(32/2)*(1024/4)*(768/4)=78.64万个Tokens,则Youtube一年增量视频数据为1.24e15个Tokens,假设使用Youtube一年增量视频数据对5000亿大模型完成一遍训练对应的算力需求为500B×1.24e15×6=3.72e27 FLOPs。以英伟达H100为例,在FP16精度下算力为1979TFLOPS,仍假设芯片利用率为46.2%,则3.72e27 FLOPs/(1979 TFLOPs×46.2%×3600s×24h/天×30天/月)=156.98万张H100/月,即完成对视频数据的训练需使用156.98万张H100训练一个月(针对单一模型,仅计算Youtube一年增量视频数据);且后续Video Frame Interpolation(VFI,帧插值)模块仍需要算力支撑。
投资建议:
多模态大模型拉动全球算力需求快速增长,关注国产AI算力侧机会。AI训练算力同大模型参数、训练Token数量成正比例关系,在模型参数量不变的条件下,训练Token数量的增长会拉动训练算力需求的增长。经我们测算,视频等训练素材将对应巨量的Token数量,进而拉动全球AI算力需求快速增长,我们持续看好国产算力需求提升,建议关注国产AI算力龙头公司海光信息。
风险提示:
宏观经济复苏不及预期,云厂商资本开支不及预期,市场竞争加剧,产品研发不及预期,国产AI算力芯片导入不及预期等。
本文源自券商研报精选
本站涵盖的内容、图片、视频等数据系网络收集,部分未能与原作者取得联系。若涉及版权问题,请联系我们删除!联系邮箱:ynstorm@foxmail.com 谢谢支持!
摘要:
2024年2月16日,OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频,在多镜头一致性等维度表现出色。
国信计算机认为,1)OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频,其在视频长度、多角度视频一致性、物理世界理解等领域具有优势;
2)Sora技术原理:通过已知Patches推测下一Patches,将Transformer和Diffusion相结合;
3)多模态大模型拉动训练算力需求提升。
4)投资建议:多模态大模型拉动全球算力需求快速增长,关注国产AI算力侧机会,建议关注国产AI算力龙头公司海光信息
原文:
OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频。
2024年2月16日,OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频,其具有60秒超长长度、多角度视频一致性、对物理世界理解等特性。
Sora可生成60秒超长视频。相较于Runway MLGen-2、Pika等文生视频大模型,Sora可以生成60秒一镜到底的视频,视频逻辑顺畅、主人物及背景的行人均非常稳定,文生视频大模型能力进一步提升。
Sore多角度视频一致性。Sore可以在单个生成视频中创建多个镜头,以准确保留角色和视觉风格。根据OpenAI官网发布的Demo,59秒的视频中,有多角度镜头,且主人物保持了完美的一致性。
Sore在尝试理解物理世界。根据OpenAI官网披露,Sore不仅可以理解用户Prompt的要求,同时亦尝试理解Prompt中的事物在物理世界中的存在方式(即物理规律)。根据OpenAI官网Demo视频中,汽车在山路行驶中的颠簸,以及猫踩奶等动作符合物理世界规律,视频逼真度进一步提升。
Sora技术原理:Transformer+Diffusion
通过已知Patches推测下一Patches。传统大语言模型通过已知Tokens推测下一Tokens,Sora同大语言模型类似,将视频数据切分成不同Patches(即大语言模型中的Tokens),通过已知Patches推测下一Patches。通常可以分为以下两个步骤:1)将高纬度视频数据压缩成低纬度隐空间(Latent Space):OpenAI通过训练视频压缩网络实现该步骤,通常将视频数据作为输入(input),后对视频数据进行时间和空间维度的压缩,并输出(output)潜在表示(latent representation)。2)进一步将数据转化为Spacetime Patches:提取一系列的latent Space作为训练/推理的Tokens,完成对模型的训练。
通过Diffusion还原画面。如前文所述,通过已知Patches推测下一Patches,得到的是Latent Patches,OpenAI通过训练Decoder将得到的latentSpace映射到像素空间,再通过Diffusion模型进一步还原画面。
多模态大模型拉动训练算力需求提升
OpenAI没有公布Sora视频数据切割的细节,我们以ZeLiu等著《Video Swin Transformer(2021)》为例,输入一个尺寸为T×H×W×3的视频(此处T选取32,代表从视频中采样得到32帧,采样方法可自行选择,通常为等间隔采样,视频长度通常约10s;每帧包含H×W×3个像素),通过3DPatchPartition可以得到(T/2)*(H/4)*(W/4)个3DPatch(尺寸为2*4*4*3),即为Tokens,之后再经过Video Swin Transformer和PatchMerging获得多帧数据的高维特征,完成视频数据训练。根据《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning(Pablo等著,2022年)》披露数据,Youtube每分钟大约上传500小时视频,则我们可以得到Youtube一年增量视频数据为500×3600×24×365=157.68亿秒。通常分类任务视频为10s左右,对应采样帧数为32,假设每帧图片分辨率为1024×768,则10s视频对应的Token数量为(32/2)*(1024/4)*(768/4)=78.64万个Tokens,则Youtube一年增量视频数据为1.24e15个Tokens,假设使用Youtube一年增量视频数据对5000亿大模型完成一遍训练对应的算力需求为500B×1.24e15×6=3.72e27 FLOPs。以英伟达H100为例,在FP16精度下算力为1979TFLOPS,仍假设芯片利用率为46.2%,则3.72e27 FLOPs/(1979 TFLOPs×46.2%×3600s×24h/天×30天/月)=156.98万张H100/月,即完成对视频数据的训练需使用156.98万张H100训练一个月(针对单一模型,仅计算Youtube一年增量视频数据);且后续Video Frame Interpolation(VFI,帧插值)模块仍需要算力支撑。
投资建议:
多模态大模型拉动全球算力需求快速增长,关注国产AI算力侧机会。AI训练算力同大模型参数、训练Token数量成正比例关系,在模型参数量不变的条件下,训练Token数量的增长会拉动训练算力需求的增长。经我们测算,视频等训练素材将对应巨量的Token数量,进而拉动全球AI算力需求快速增长,我们持续看好国产算力需求提升,建议关注国产AI算力龙头公司海光信息。
风险提示:
宏观经济复苏不及预期,云厂商资本开支不及预期,市场竞争加剧,产品研发不及预期,国产AI算力芯片导入不及预期等。
本文源自券商研报精选
本站涵盖的内容、图片、视频等数据系网络收集,部分未能与原作者取得联系。若涉及版权问题,请联系我们删除!联系邮箱:ynstorm@foxmail.com 谢谢支持!